উদাহরণ সহ OCR ব্যবহার

Tika এবং Optical Character Recognition (OCR) Integration - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

337

অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী টুল যা টেক্সট এক্সট্রাকশনসহ OCR (Optical Character Recognition) প্রযুক্তির মাধ্যমে ইমেজ বা স্ক্যান করা ডকুমেন্ট থেকে টেক্সট রিড এবং প্রসেস করতে পারে। অ্যাপাচি টিকা Tesseract OCR ইঞ্জিনের সাহায্যে এই কাজটি সম্পন্ন করে।

OCR কি?

OCR (Optical Character Recognition) হলো এমন একটি প্রযুক্তি যা ইমেজ বা স্ক্যান করা ফাইল থেকে লেখাকে পড়ে এবং সেই টেক্সটকে ডিজিটাল ফরম্যাটে রূপান্তরিত করে।

অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?

অ্যাপাচি টিকা Tesseract OCR লাইব্রেরির ইন্টিগ্রেশন ব্যবহার করে OCR-এর মাধ্যমে ইমেজ ফাইল বা স্ক্যান করা পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে পারে।

প্রয়োজনীয় ডিপেন্ডেন্সি

OCR ফিচার ব্যবহারের জন্য অ্যাপাচি টিকা এবং Tesseract OCR ইনস্টল থাকতে হবে।

Tesseract OCR ইনস্টলেশন (Linux/Ubuntu):

sudo apt-get install tesseract-ocr

উদাহরণ: Tika এবং OCR

১. Tika CLI এর মাধ্যমে OCR ব্যবহার

ধরা যাক আপনার কাছে একটি স্ক্যান করা পিডিএফ বা ইমেজ ফাইল আছে (example.jpg)। অ্যাপাচি টিকা কমান্ড লাইন ইন্টারফেস (CLI) ব্যবহার করে টেক্সট এক্সট্রাক্ট করতে পারবেন।

কমান্ড:

java -jar tika-app-x.x.jar -t example.jpg

Output:
ফাইল থেকে টেক্সট এক্সট্রাক্ট হয়ে টার্মিনালে প্রদর্শিত হবে।

২. Java প্রোগ্রামে OCR ব্যবহার

OCR সাপোর্ট সহ অ্যাপাচি টিকা কোডের মাধ্যমে ইমেজ থেকে টেক্সট প্রসেস করা যায়।

Java কোড:

import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.metadata.Metadata;

import java.io.File;
import java.io.FileInputStream;

public class TikaOCRExample {
    public static void main(String[] args) throws Exception {
        // Tika এবং Tesseract OCR সেটআপ
        Tika tika = new Tika();
        TesseractOCRConfig config = new TesseractOCRConfig();
        config.setLanguage("eng"); // ভাষা সেট করুন
        ParseContext context = new ParseContext();
        context.set(TesseractOCRConfig.class, config);

        // ফাইল প্রসেসিং
        File file = new File("example.jpg");
        Metadata metadata = new Metadata();
        FileInputStream inputStream = new FileInputStream(file);

        String text = tika.parseToString(inputStream, metadata, context);
        System.out.println("Extracted Text: " + text);
    }
}

স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন

অ্যাপাচি টিকার মাধ্যমে স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করার জন্যও Tesseract OCR ব্যবহার করা হয়।

কমান্ড লাইন:

java -jar tika-app-x.x.jar -t scanned_document.pdf

Output:
টেক্সট স্ক্যান করা পিডিএফ থেকে এক্সট্রাক্ট হয়ে প্রিন্ট হবে।

Tika OCR কনফিগারেশন

OCR প্রসেস আরও কাস্টমাইজ করার জন্য TesseractOCRConfig ব্যবহার করা হয়।

প্রধান সেটিংস:

Language: OCR এর ভাষা (ডিফল্ট eng)
DPI: স্ক্যান করা ফাইলের রেজোলিউশন সেট করা
Timeout: OCR প্রসেসিংয়ের সময়সীমা নির্ধারণ

Example:

config.setLanguage("ben"); // বাংলা OCR
config.setTimeout(120);    // ২ মিনিট টাইমআউট

সুবিধা

মাল্টি-ল্যাংগুয়েজ সাপোর্ট: Tesseract-এর মাধ্যমে অ্যাপাচি টিকা একাধিক ভাষায় OCR করতে পারে।
ইমেজ এবং স্ক্যান পিডিএফ সাপোর্ট: ফরম্যাটের সীমাবদ্ধতা নেই।
ইন্টিগ্রেশন সহজ: Java API এবং CLI উভয়ের মাধ্যমে ব্যবহারযোগ্য।

সারাংশ

অ্যাপাচি টিকা এবং Tesseract OCR-এর সমন্বয়ে স্ক্যান করা ডকুমেন্ট, ইমেজ বা পিডিএফ থেকে সহজে এবং কার্যকরীভাবে টেক্সট এক্সট্রাক্ট করা যায়। এটি ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের জন্য একটি অত্যন্ত কার্যকর সমাধান।

Content added By

Md Zahid Hasan

OCR কি এবং এর প্রয়োজনীয়তা Apache Tika এবং Tesseract OCR Integration Image থেকে Text Extraction এবং PDF OCR

উদাহরণ সহ OCR ব্যবহার

OCR কি?

অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?

প্রয়োজনীয় ডিপেন্ডেন্সি

উদাহরণ: Tika এবং OCR

১. Tika CLI এর মাধ্যমে OCR ব্যবহার

২. Java প্রোগ্রামে OCR ব্যবহার

স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন

Tika OCR কনফিগারেশন

প্রধান সেটিংস:

সুবিধা

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

উদাহরণ সহ OCR ব্যবহার

OCR কি?

অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?

প্রয়োজনীয় ডিপেন্ডেন্সি

উদাহরণ: Tika এবং OCR

১. Tika CLI এর মাধ্যমে OCR ব্যবহার

২. Java প্রোগ্রামে OCR ব্যবহার

স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন

Tika OCR কনফিগারেশন

প্রধান সেটিংস:

সুবিধা

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!